Anthropic bringt ein neues KI-Modell auf den Markt, das so lange „denkt“, wie Sie wollen

Anthropic veröffentlicht ein neues bahnbrechendes KI-Modell namens Claude 3.7 Sonnet, das das Unternehmen so konzipiert hat, dass es so lange über Fragen „nachdenkt“, wie die Benutzer dies wünschen.
Anthropic bezeichnet Claude 3.7 Sonnet als das erste „hybride KI-Denkmodell“ der Branche, da es sich um ein einzelnes Modell handelt, das sowohl Echtzeitantworten als auch überlegtere, „durchdachtere“ Antworten auf Fragen geben kann. Benutzer können wählen, ob sie die „Denkfähigkeiten“ des KI-Modells aktivieren möchten, die Claude 3.7 Sonnet dazu veranlassen, für einen kurzen oder langen Zeitraum zu „denken“.
Das Modell stellt Anthropics umfassende Bemühungen dar, die Benutzererfahrung rund um seine KI-Produkte zu vereinfachen. Die meisten KI-Chatbots von heute haben eine einschüchternde Modellauswahl, die Benutzer dazu zwingt, aus mehreren verschiedenen Optionen zu wählen, die sich in Kosten und Leistungsfähigkeit unterscheiden. Labore wie Anthropic möchten lieber, dass Sie nicht darüber nachdenken müssen – im Idealfall erledigt ein Modell die ganze Arbeit.
Claude 3.7 Sonnet wird am Montag für alle Benutzer und Entwickler ausgerollt, sagte Anthropic, aber nur Benutzer, die für Anthropics Premium-Chatbot-Pläne Claude bezahlen, erhalten Zugriff auf die Denkfunktionen des Modells. Benutzer der kostenlosen Claude-Version erhalten die standardmäßige, nicht logische Version von Claude 3.7 Sonnet, die laut Anthropic das bisherige KI-Spitzenmodell Claude 3.5 Sonnet übertrifft. (Ja, das Unternehmen hat eine Nummer übersprungen.)
Claude 3.7 Sonnet kostet 3 USD pro Million Eingabetoken (was bedeutet, dass Sie für 3 USD ungefähr 750.000 Wörter in Claude eingeben könnten, mehr Wörter als die gesamte Herr der Ringe-Reihe) und 15 USD pro Million Ausgabetoken. Damit ist es teurer als OpenAIs o3-mini (1,10 USD pro 1 Mio. Eingabetoken/4,40 USD pro 1 Mio. Ausgabetoken) und DeepSeeks R1 (0,55 USD pro 1 Mio. Eingabetoken/2,19 USD pro 1 Mio. Ausgabetoken). Bedenken Sie jedoch, dass o3-mini und R1 reine Argumentationsmodelle sind – keine Hybride wie Claude 3.7 Sonnet.

Claude 3.7 Sonnet ist Anthropics erstes KI-Modell, das „denken“ kann, eine Technik , auf die viele KI-Labore zurückgegriffen haben, da traditionelle Methoden zur Verbesserung der KI-Leistung nachlassen .
Denkmodelle wie o3-mini, R1, Googles Gemini 2.0 Flash Thinking und xAIs Grok 3 (Think) benötigen mehr Zeit und Rechenleistung, bevor sie Fragen beantworten. Die Modelle zerlegen Probleme in kleinere Schritte, was tendenziell die Genauigkeit der endgültigen Antwort verbessert. Denkmodelle denken oder argumentieren nicht unbedingt wie ein Mensch, aber ihr Prozess ist nach der Deduktion modelliert.
Letztendlich möchte Anthropic, dass Claude selbst herausfindet, wie lange es über Fragen „nachdenken“ muss, ohne dass die Benutzer vorher Steuerelemente auswählen müssen, sagte Diane Penn, Produkt- und Forschungsleiterin bei Anthropic, in einem Interview mit TechCrunch.
„Ähnlich wie Menschen keine zwei getrennten Gehirne für Fragen haben, die sofort beantwortet werden können, und solche, die Nachdenken erfordern“, schrieb Anthropic in einem Blogbeitrag, den TechCrunch zur Verfügung gestellt hat, „betrachten wir das logische Denken lediglich als eine der Fähigkeiten, die ein Spitzenmodell haben sollte, die reibungslos mit anderen Fähigkeiten integriert werden muss, und nicht als etwas, das in einem separaten Modell bereitgestellt werden muss.“
Anthropic sagt, dass es Claude 3.7 Sonnet ermöglicht, seine interne Planungsphase durch ein „sichtbares Notizfeld“ zu zeigen. Lee sagte gegenüber TechCrunch, dass die Benutzer bei den meisten Eingabeaufforderungen Claudes gesamten Denkprozess sehen werden, dass jedoch einige Teile aus Vertrauens- und Sicherheitsgründen geschwärzt werden könnten.

Anthropic sagt, es habe Claudes Denkmuster für Aufgaben aus der realen Welt optimiert, wie etwa schwierige Codierungsprobleme oder Agentenaufgaben. Entwickler, die Anthropics API nutzen, können das „Budget“ für das Denken kontrollieren und Geschwindigkeit und Kosten gegen die Qualität der Antwort eintauschen.
Bei einem Test zur Messung von Codierungsaufgaben in realen Wörtern, SWE-Bench, erreichte Claude 3.7 Sonnet eine Genauigkeit von 62,3 %, verglichen mit OpenAIs o3-mini-Modell, das 49,3 % erreichte. Bei einem anderen Test zur Messung der Fähigkeit eines KI-Modells, mit simulierten Benutzern und externen APIs in einer Einzelhandelsumgebung zu interagieren, TAU-Bench, erreichte Claude 3.7 Sonnet 81,2 %, verglichen mit OpenAIs o1-Modell, das 73,5 % erreichte.
Anthropic sagt auch, dass Claude 3.7 Sonnet weniger häufig die Beantwortung von Fragen verweigert als seine Vorgängermodelle, und behauptet, dass das Modell in der Lage sei, differenzierter zwischen schädlichen und harmlosen Eingabeaufforderungen zu unterscheiden. Anthropic sagt, dass es die Anzahl unnötiger Ablehnungen im Vergleich zu Claude 3.5 Sonnet um 45 % reduziert habe. Dies geschieht zu einem Zeitpunkt, an dem einige andere KI-Labore ihren Ansatz zur Einschränkung der Antworten ihrer KI-Chatbots überdenken .
Zusätzlich zu Claude 3.7 Sonnet veröffentlicht Anthropic auch ein agentenbasiertes Codierungstool namens Claude Code. Das Tool wird als Forschungsvorschau veröffentlicht und ermöglicht es Entwicklern, bestimmte Aufgaben über Claude direkt von ihrem Terminal aus auszuführen.
In einer Demo zeigten Mitarbeiter von Anthropic, wie Claude Code ein Programmierprojekt mit einem einfachen Befehl wie „ Erklären Sie diese Projektstruktur“ analysieren kann. Mithilfe von einfachem Englisch in der Befehlszeile kann ein Entwickler eine Codebasis ändern. Claude Code beschreibt seine Änderungen, während es Änderungen vornimmt, und testet ein Projekt sogar auf Fehler oder überträgt es in ein GitHub-Repository.
Ein Sprecher von Anthropic erklärte gegenüber TechCrunch, dass Claude Code zunächst einer begrenzten Zahl von Benutzern nach dem Prinzip „Wer zuerst kommt, mahlt zuerst“ zur Verfügung stehen wird.
Anthropic bringt Claude 3.7 Sonnet zu einer Zeit heraus, in der KI-Labore in rasender Geschwindigkeit neue KI-Modelle ausliefern. Anthropic hat in der Vergangenheit einen methodischeren, sicherheitsorientierteren Ansatz verfolgt. Doch dieses Mal will das Unternehmen die Führung übernehmen.
Die Frage ist, wie lange. OpenAI steht möglicherweise kurz davor, ein eigenes hybrides KI-Modell herauszubringen. Der CEO des Unternehmens, Sam Altman, sagte, es werde in „Monaten“ verfügbar sein.
techcrunch